home *** CD-ROM | disk | FTP | other *** search
/ Internet Info 1997 December / Internet_Info_CD-ROM_Walnut_Creek_December_1997.iso / ietf / urn / urn-archives / urn-ietf.archive.9611 / 000158_owner-urn-ietf _Thu Nov 14 05:39:44 1996.msg < prev    next >
Internet Message Format  |  1997-02-19  |  7KB

  1. Received: (from daemon@localhost) by services.bunyip.com (8.6.10/8.6.9) id FAA21979 for urn-ietf-out; Thu, 14 Nov 1996 05:39:44 -0500
  2. Received: from mocha.bunyip.com (mocha.Bunyip.Com [192.197.208.1]) by services.bunyip.com (8.6.10/8.6.9) with SMTP id FAA21973 for <urn-ietf@services.bunyip.com>; Thu, 14 Nov 1996 05:39:37 -0500
  3. Received: from dicsmss1.jrc.it by mocha.bunyip.com with SMTP (5.65a/IDA-1.4.2b/CC-Guru-2b)
  4.         id AA18908  (mail destined for urn-ietf@services.bunyip.com); Thu, 14 Nov 96 05:39:29 -0500
  5. Received: from  jrc.it (elect6.jrc.it) by dicsmss1.jrc.it (4.1/EB-950131-C)
  6.     id AA12722; Thu, 14 Nov 96 11:44:01 +0100
  7. Received: by  jrc.it (5.x/EB-950213-L)
  8.     id AA01418; Thu, 14 Nov 1996 11:38:37 +0100
  9. Date: Thu, 14 Nov 1996 11:38:37 +0100
  10. From: Dirk vanGulik <Dirk.vanGulik@jrc.it>
  11. Message-Id: <9611141038.AA01418@ jrc.it>
  12. To: Dirk.vanGulik@jrc.it, mduerst@ifi.unizh.ch
  13. Subject: Re: [URN] I18N does not belong in URNs
  14. Cc: FisherM@is3.indy.tce.com, moore@cs.utk.edu, girod@LCS.MIT.EDU,
  15.         tallen@fsc.fujitsu.com, urn-ietf@bunyip.com
  16. X-Sun-Charset: US-ASCII
  17. Sender: owner-urn-ietf@services.bunyip.com
  18. Precedence: bulk
  19. Reply-To: Dirk vanGulik <Dirk.vanGulik@jrc.it>
  20. Errors-To: owner-urn-ietf@bunyip.com
  21.  
  22. > Dirk.vanGulik wrote:
  23.  
  24. > >Or they use a naming scheme dependent interpretation. You could for
  25. > >example simply limit the representation of the URN to the glyphs
  26. > >A-Z, 0-9 and say the dot, dash, and colon. 
  27. > Too much in favor of English users (+Hawaiian and Suwaheli)!
  28.  
  29. Well as a dutch person working in italy in a swiss building; I
  30. can quite live with it :-) No just kidding, but seriously why
  31. does this 'favour' ? And where does it come in ?
  32.   
  33. > > I recently came across a specific scheme, say 'crdis' which has a lot of
  34. > > LocalControlIdentfiers which can (only be fully) expressed in 2-byte octets. 
  35. > > This obviously gave problems as some of our z39.50 servers and HTTP/URN 
  36. > > resolving code did not quite like this. A pragmatic solution was to simply
  37. > > base64 encode the identfication string.
  38.  
  39. > > A specialist GUI could now base64-decode the string to arrive 
  40. > > at something meaningfull for a human. But it does not have to. 
  41. > > And it does keep things simple.
  42.  
  43. > I have mentionned earlier the possibility that some namespaces may
  44. > contain arbitrary data, as opposed to characters, and I have therefore
  45.  
  46. Hold on, I was trying to convey that these strings did _INDEED_ contain
  47. meaningfull text; auctually the various 'strings' where short 
  48. titles in the 19 european languages; carefully protected. So we are
  49. not talking arbitrary strings here; although they *function* as an
  50. arbritary handle. But for the expert their actual content conveys
  51. more than just a number.
  52.  
  53. The same could be said of my phone number
  54.  
  55.     +39 332 78 0014
  56.  
  57. Which tells a local here that it is me, living in Ispra(78), near Varse
  58. (33*)in italy(39). But for most people those digits make no sense all,
  59. nor have to. And my local phone technician might even tell me more by
  60. just looking at it.
  61.  
  62. > suggested that the requirement that all URNs be UTF-8 should be
  63. > relaxed. I have given the data: URL as an example. Here we have
  64. > an obvious second examlpe.
  65. >  
  66. > >I really would like to roll up the charset discussion; I agree that for a lot
  67. > >of scheme's, in particular those to be grandfathered in, one will need very
  68. > >flexible encodings.
  69.  
  70. > They need to be very flexible in the sense that they have to be
  71. > able to accomodate a very large set of characters, and something
  72. > else than characters in some cases.
  73.  
  74. Well, that is a requirement I do not find in the functional RQ RFC at
  75. all. Should that be re-written ? I agree that publishers and maintainers
  76. might like to 'overload' the content; but that is a different issue.
  77.  
  78. > But there is absolutely no reason to have arbitrary flexibility
  79. > for those cases where indeed characters have to be represented.
  80. > For this case, it is much easier to specify that UTF-8 be used
  81. > (optionally or even mandatorily with %HH encoding).
  82.  
  83. > >But the internet transfer mechanisms are not quite up to 
  84. > >that yet. So I would suggest:
  85.  
  86. > >    1. Limit the URNs to just a few chars (along the lines of DNS) This
  87. > >       also makes comparing URNs easy.
  88.  
  89. > As for the character set *representing* URNs, I can agree. This would
  90. > basically mean that everything has to be %HH encoded.
  91.   
  92. Hmm, I think we have a slight terminology clash; much like the problems
  93. we have had with the URL rfc. There are several layers, which their
  94. own dimensions. In URLs (correct me if I am wrong Larry) this is solved
  95. by saying that the acutal URL is an octet-stream. These 8-bit encoded
  96. values are all there is. However by 'pure coincidence' they can be
  97. treated as indexes into a charset such as US-Asicc or latin-1 and
  98. actually yeild something which humans can interpret quite easily.
  99.  
  100. But for example the first 5 values (say http:) are not the glyph
  101. 'h', 't', p'p and ':' but the values 68747470 or 4854545. (Upper/
  102. lowercase),
  103.  
  104. So what I was saying is that the URN is an octet stream; and the
  105. allowed values are from ox30 to 0x39, 0x41--0x5a etc. Which happen
  106. to represent indexes into latin-1, UTF-8 or ascii.
  107.  
  108. Now a clever administrator (and a clever GUI) can use something like
  109. base64 to get a nice UniCode string in.
  110.  
  111. > >    2. Allow, or perhaps even force, each registered naming scheme
  112. > >       to suggest a possible encoding/escape sequencing to derive
  113. > >       nice human names from the URN. This can be used by the more
  114. > >       advanced GUIs.
  115.  
  116. > The greatest majority of naming schemes will have identical problems,
  117. > namely how to represent characters in namespaces. And a single and
  118. > very simple GUI can provide nice human representations for these
  119. > cases (modulo available fonts). And a single and widely applicable
  120. > convention should be used by all naming schemes dealing with
  121. > characters.
  122.  
  123. > >    3. And keep a few chars (say the %) in stock, for the future.
  124.  
  125. > >    4. And remember, one can always make something like a next generation
  126. > >       URN+:das:asd which can only be transcribed properly using say UTF8.
  127.  
  128. > There is absolutely no need to wait any longer for UTF-8.
  129.  
  130. Well, I can agree; but not for the premisse; I do not see the need 
  131. for the charset flexibilit. I know people can get quite religious about
  132. their names; so you have a point that we should be flexible to accomodate,
  133. but on the other hand it does make implementation harder whilst the
  134. functionality does not increase a bit.
  135.  
  136. > >I know that such an encoding essentially wastes space; but that is a tradeoff
  137. > >I am willing to make for simplfied storage, encoding and comparing. 
  138.  
  139. > All your requirements can be fulfilled by:
  140.  
  141. > - Allowing non-character namespaces to create their own non UTF-8 encodings
  142. >     (as I have suggested previously).
  143. > - Require that internally, all 8-bit octets resulting from UTF-8 encoding
  144. >     of characters beyond ASCII (+some in ASCII) be encoded with
  145. >     %HH, so that there is no 8-bit from of URNs.
  146.  
  147. > Although I have good reasons to think that the second point is not needed,
  148. > I could live with it. But giving up a convention such as UTF-8 to map
  149. > arbitrary characters in namespaces to URNs would be a great loss.
  150.  
  151. Well I think I do not see those requirements; but perhaps we should look
  152. at the RQ RFC again, to see what possibly is missing.
  153.  
  154. Dw.